强化学习已彻底改变了动态环境中的决策过程,但它经常在自主检测和实现目标的情况下而在没有明确反馈信号的情况下进行斗争。例如,在源术语问题问题中,缺乏精确的环境信息使得提供明确的反馈信号并定义和评估源位置是如何终止的。为了应对这一挑战,开发了自主目标检测和停止(AGDC)模块,通过在任务完成后纳入自主目标检测和CES的自动反馈机制来增强各种RL算法。我们的方法可以通过近似代理人的信念来有效地识别不确定的目标,从而显着增强了反馈有限的环境中RL算法的能力。为了验证我们的方法的效率,我们将AGDC与深度Q网络,近端政策优化和深度确定的策略梯度算法相结合,并评估了其在源期限估计问题上的表现。表明,AGDC增强的RL算法显着超过了传统的统计方法,例如信息性和探索以及非统计的随机行动选择方法,例如信息触发,内特抗体和双重控制。这些改进在成功率,平均行进距离和搜索时间方面显而易见,突出了AGDC在复杂的现实世界情景中的有效性和效率。
主要关键词